对比学习在视频表示学习中表现出了巨大的潜力。但是,现有方法无法充分利用短期运动动态,这对于各种下游视频理解任务至关重要。在本文中,我们提出了运动敏感的对比度学习(MSCL),该学习将光学流捕获的运动信息注入RGB帧中,以增强功能学习。为了实现这一目标,除了剪辑级全球对比度学习外,我们还开发了局部运动对比度学习(LMCL),具有两种模式的框架级对比目标。此外,我们引入流动旋转增强(FRA),以生成额外的运动除件负面样品和运动差分采样(MDS)以准确筛选训练样品。对标准基准测试的广泛实验验证了该方法的有效性。以常用的3D RESNET-18为骨干,我们在UCF101上获得了91.5 \%的前1个精度,而在视频分类中进行了一些v2的v2,以及65.6 \%的top-1 top-1召回ucf1011对于视频检索,特别是改善了最新的。
translated by 谷歌翻译
在本文中,我们利用了以前的预训练模型(PTM)的优势,并提出了一种新型的中国预训练的不平衡变压器(CPT)。与以前的中国PTM不同,CPT旨在利用自然语言理解(NLU)和自然语言生成(NLG)之间的共同知识来促进表现。 CPT包括三个部分:共享编码器,一个理解解码器和一代解码器。具有共享编码器的两个特定解码器分别通过蒙版语言建模(MLM)进行了预训练,并分别将自动编码(DAE)任务进行了验证。借助部分共享的体系结构和多任务预培训,CPT可以(1)使用两个解码器学习NLU或NLG任务的特定知识,并且(2)对模型的潜力充分利用了微调。此外,不平衡的变压器节省了计算和存储成本,这使CPT竞争激烈,并极大地加速了文本生成的推断。对各种中国NLU和NLG任务的实验结果显示了CPT的有效性。
translated by 谷歌翻译
反事实解释(CFXS)的使用是机器学习模型越来越流行的解释策略。但是,最近的研究表明,这些解释可能对基础模型的变化(例如,在重新培训之后)的变化可能并不强大,这引发了有关其在现实世界应用中的可靠性的问题。现有的解决此问题的尝试是启发式方法,仅使用少量的重新培训模型来评估所得CFXS的模型变化的鲁棒性,未能提供详尽的保证。为了解决这个问题,我们提出了第一个概念,以正式和确定性地评估神经网络的CFX的鲁棒性(建模更改),我们称为{\ delta} - bubustness。我们引入了基于间隔神经网络的抽象框架,以验证CFXS的{\ delta} - 固定性,以实现模型参数(即权重和偏见)的无限更改。然后,我们以两种不同的方式演示了这种方法的实用性。首先,我们分析了文献中许多CFX生成方法的{\ delta} - 固定性,并表明它们在这方面一致占据了明显的缺陷。其次,我们演示了如何在现有方法中嵌入{\ delta} - bobustness可以提供可证明可靠的CFX。
translated by 谷歌翻译
在这项工作中,我们提出了一个新的范式,用于使用降低性降低方案(包括Minibatch梯度近似和操作员草图)设计有效的深层展开网络。深度展开的网络目前是成像逆问题的最新解决方案。然而,对于高维成像任务,尤其是X射线CT和MRI成像,由于需要多次计算高维向前和邻接运算符,因此深层展开方案通常在记忆和计算方面效率低下。最近,研究人员发现,可以通过展开随机梯度下降(SGD)来部分解决此类局限性,这受到随机一阶优化的成功的启发。在这项工作中,我们基于最先进的原始偶(LPD)网络,进一步探讨了这一方向,并首先提出了更具表现力和实用的随机原始偶发性展开,也是随机原始的进一步加速 - 双曲线,使用素描技术在高维图像空间中近似产品。操作员素描可以与随机展开共同应用,以获得最佳的加速度和压缩性能。我们对X射线CT图像重建的数值实验证明了我们加速展开方案的显着有效性。
translated by 谷歌翻译
在这项工作中,我们提出了一种随机原始偶对预处理的三操作算法,用于解决一类凸的三复合优化问题。我们提出的方案是SPDHG算法的直接三操作员分裂扩展[Chambolle等。2018]。我们提供了理论收敛分析,显示了厄贡O(1/K)收敛率,并证明了我们方法在成像反问题中的有效性。
translated by 谷歌翻译
数据驱动的机器学习方法有可能显着加速材料设计的速率,而不是传统的人类指导方法。这些方法将有助于识别或在生成模型的情况下,甚至可以创建具有一组指定功能特性的新型材料结构,然后在实验室中合成或隔离。对于晶体结构的产生,关键的瓶颈在于为机器学习模型开发合适的原子结构指纹或表示,类似于分子生成中使用的基于图或微笑的表示。但是,找到对翻译,旋转和排列不变的数据有效表示,而笛卡尔原子坐标仍然是可逆的,仍然是一个持续的挑战。在这里,我们通过采用具有所需的不变的现有的不可糊化表示并开发算法来通过使用自动分化的基于梯度的优化来重建原子坐标,从而提出了一种替代方法。然后,可以将其与生成机器学习模型耦合,该模型在表示空间内生成新材料,而不是在数据范围内的笛卡尔空间中生成新材料。在这项工作中,我们使用以原子为中心的对称函数来实现这种端到端的结构生成方法,作为表示和条件变化自动编码器作为生成模型。我们能够成功地生成亚纳米PT纳米颗粒的新颖和有效的原子结构,作为概念证明。此外,该方法可以很容易地扩展到任何合适的结构表示形式,从而为基于结构的生成提供了强大的,可推广的框架。
translated by 谷歌翻译
我们建议在固定计算预算的约束下,提出一种稳定的,平行的方法来训练Wasserstein条件生成的对抗神经网络(W-CGANS)。与以前的分布式gan训练技术不同,我们的方法避免了过程间通信,降低了模式崩溃的风险并通过使用多个发电机来增强可扩展性,每个发电机都同时在单个数据标签上进行了训练。 Wasserstein度量的使用还通过稳定每个发电机的训练来降低骑自行车的风险。我们说明了CIFAR10,CIFAR100和IMAGENET1K数据集上的三个标准基准图像数据集上的方法,并维护每个数据集的图像的原始分辨率。在有限的固定计算时间和计算资源中,根据可伸缩性和最终准确性评估了性能。为了衡量准确性,我们使用成立得分,特征构成距离和图像质量。与以前的结果相比,通过在深卷积有条件的有条件生成的对抗神经网络(DC-CGANS)上执行并行方法相比,展示了成立评分和特征造成距离的改善,以及改善由新图像的图像质量的改善。甘斯的方法。在OLCF超级计算机峰会上使用多达2,000个NVIDIA V100 GPU的两个数据集都达到了弱缩放。
translated by 谷歌翻译
在这项工作中,我们提出了一种新型高效的深度展开网络,用于解决成像逆问题。经典深度展开方法需要全向前运算符及其伴随各层,因此可以计算比其他端到端方法(如FBP-GROMNET)昂贵,尤其是在3D图像重建任务中。我们提出了一种具有所学习的原始双(LPD)的随机(订购子集)延伸,这是一种最先进的展开网络。在我们的展开网络中,我们只使用前向和伴随运营商的子集,以实现计算效率。我们为我们的LSPD框架内提供了对特殊情况的理论分析,这表明我们的LSPD网络有可能实现相同的完整批量LPD网络准确性,只能访问运营商的子集。我们的数值结果证明了我们在X射线CT成像任务中的方法的有效性,表明我们的网络实现了与全批次LPD相似的重建精度,同时只需要计算的一小部分。
translated by 谷歌翻译
In this paper, we propose a robust 3D detector, named Cross Modal Transformer (CMT), for end-to-end 3D multi-modal detection. Without explicit view transformation, CMT takes the image and point clouds tokens as inputs and directly outputs accurate 3D bounding boxes. The spatial alignment of multi-modal tokens is performed implicitly, by encoding the 3D points into multi-modal features. The core design of CMT is quite simple while its performance is impressive. CMT obtains 73.0% NDS on nuScenes benchmark. Moreover, CMT has a strong robustness even if the LiDAR is missing. Code will be released at https://github.com/junjie18/CMT.
translated by 谷歌翻译
Dataset distillation has emerged as a prominent technique to improve data efficiency when training machine learning models. It encapsulates the knowledge from a large dataset into a smaller synthetic dataset. A model trained on this smaller distilled dataset can attain comparable performance to a model trained on the original training dataset. However, the existing dataset distillation techniques mainly aim at achieving the best trade-off between resource usage efficiency and model utility. The security risks stemming from them have not been explored. This study performs the first backdoor attack against the models trained on the data distilled by dataset distillation models in the image domain. Concretely, we inject triggers into the synthetic data during the distillation procedure rather than during the model training stage, where all previous attacks are performed. We propose two types of backdoor attacks, namely NAIVEATTACK and DOORPING. NAIVEATTACK simply adds triggers to the raw data at the initial distillation phase, while DOORPING iteratively updates the triggers during the entire distillation procedure. We conduct extensive evaluations on multiple datasets, architectures, and dataset distillation techniques. Empirical evaluation shows that NAIVEATTACK achieves decent attack success rate (ASR) scores in some cases, while DOORPING reaches higher ASR scores (close to 1.0) in all cases. Furthermore, we conduct a comprehensive ablation study to analyze the factors that may affect the attack performance. Finally, we evaluate multiple defense mechanisms against our backdoor attacks and show that our attacks can practically circumvent these defense mechanisms.
translated by 谷歌翻译